Python爬虫——解决urlretrieve下载不完整问题且避免用时过长

最新推荐文章于 2024-03-28 15:44:12 发布

山阴少年

最新推荐文章于 2024-03-28 15:44:12 发布

阅读量1.8w

点赞数 6

分类专栏： Python爬虫文章标签： Python爬虫下载不完整

本文链接：https://blog.csdn.net/jclian91/article/details/77513289

版权

Python爬虫专栏收录该内容

22 篇文章 4 订阅

订阅专栏

在这篇博客中：http://blog.csdn.net/Innovation_Z/article/details/51106601 ，作者利用递归方法解决了urlretrieve下载文件不完整的方法，其代码如下：

def auto_down(url,filename):
    try:
        urllib.urlretrieve(url,filename)
    except urllib.ContentTooShortError:
        print 'Network conditions is not good.Reloading.'
        auto_down(url,filename)

　　但是经笔者测试，下载文件出现urllib.ContentTooShortError且重新下载文件会存在用时过长的问题，而且往往会尝试好几次，甚至十几次，偶尔会陷入死循环，这种情况是非常不理想的。为此，笔者利用socket模块，使得每次重新下载的时间变短，且避免陷入死循环，从而提高运行效率。
　　以下为代码：

import socket
import urllib.request
#设置超时时间为30s
socket.setdefaulttimeout(30)
#解决下载不完全问题且避免陷入死循环
try:
    urllib.request.urlretrieve(url,image_name)
except socket.timeout:
    count = 1
    while count <= 5:
        try:
            urllib.request.urlretrieve(url,image_name)                                                
            break
        except socket.timeout:
            err_info = 'Reloading for %d time'%count if count == 1 else 'Reloading for %d times'%count
            print(err_info)
            count += 1
    if count > 5:
        print("downloading picture fialed!")